使用基于LDCT的三维深度学习模型进行端到端的肺癌筛查
End-to-end lung cancer screening with three-dimensional deep learning on low-dose chest computed tomography
今天要跟大家分享的是今年5月发表在nature medicine上的一篇有关深度学习模型的文章,这篇文章讲的主要就是作者团队联合谷歌AI研究所的研究人员,开发出了一种可预测肺部恶性肿瘤的深度学习模型,这个模型能够发现早期不易发现的肺癌病人,还能减少肺癌的误诊率。接下来我们就来详细看一下这篇文章。
文章总览
肺癌目前已成为美国癌症死亡的最常见原因,使用低剂量计算机断层扫描进行肺癌筛查显示可将死亡率降低20-43%,此方法现已纳入美国肺癌筛查指南。目前筛查的挑战主要包括高假阳性率和假阴性率,肿瘤分期的差异,广泛筛查的困难等。因此,作者团队提出了一种深度学习算法,该算法使用患者当前和先前的CT影像来预测肺癌的风险。该模型在6,716个国家肺癌筛查试验案例中表现出良好的幸能(ROC曲线下面积为94.4%),并且在1,139个案例的独立临床验证集上表现良好。同时,作者还将该模型与经验丰富的放射科医生进行比较:当没有先前的CT影像时,模型优于所有六位放射科医师,假阳性率减少11%,假阴性率减少5%;在可以获得先前CT影像的情况下,模型的特异性和敏感性与放射科医师相当。此模型的开发为通过计算机辅助筛查和自动化优化肺癌筛选过程创造了机会。虽然绝大多数患者没有接受筛查,但此模型展示了深度学习模型的潜力,可以提高全球肺癌筛查的特异性,一致性和采用率。背景知识
1.低剂量CT(low dose CT,LDCT):低剂量CT就是将普通CT扫描的参数减低,以降低CT的剂量,从而达到受检人接受的辐射剂量减少的目的。因为肺部是含气脏器,射线比较容易穿过,所以低剂量CT广泛应用于肺部的筛查,比普通CT剂量小,图像质量稍微差,但是能够应用于诊断,低剂量CT筛查在肺小结节检出有很大的优势。2. ACR Lung-RADS 1.0分类:2014年,美国放射学院发布了肺癌LDCT肺癌筛查的LungRADS指南,以便放射科医师对图像解释进行标准化并规定管理建议。评估基于CT图像中的各种标志,但主要是结节大小,密度和生长情况。在筛查部位,Lung-RADS和其他模型用于确定恶性风险评级,为临床管理提供建议。根据结节的有无,大小和性质,Lung-RADS有许多分类,与本文有关的分类为:Lung-RADS 3:分类为可能良性结节,其恶性概率为1%~ 2%,预期群体li罹患率为5%;Lung-RADS 4A:分类为可疑恶性结节,其恶性概率为5%~ 15%,预期群体罹患率为2%;Lung-RADS 4B/X:分类为可疑恶性结节,Lung-RADS 4B和4X的恶性概率>15%,预期群体罹患率为2%。3.卷积神经网络(Convolutional Neural Networks,CNN):卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。他是可以用来处理网格状结构数据的特殊网络结构,像时序数据通常被认为是一维的数据格式,而图片则被认为是二维的数据格式,卷积神经网络在处理这种二维结构的数据上取得了巨大的成功。几个重要概念:局部感知野:每个神经元只需要对图像的局部特征进行感知,然后将这些局部的特征进行组合得到图片的全局特征。权值共享:卷积神经网络使用卷积操作提取图像中的特征,同一个卷积核在图像上滑动提取同一种特征,如果想要提取多个特征就使用多个卷积核。之所以称之为“权值共享”,是因为同一个卷积核在图像的多个局部之间滑动,某一局部提取的特征可以用在其他区域,或者说图像的特征与位置无关。通过权值共享能大大降低神经网络的计算量。池化:对图像进行压缩处理,具体的操作是将卷积后的图像划分成若干个区域,取每个区域的最大值或平均值构成新的图像。池化后的图像大小显著缩小,但是仍保留了原先的特征。方法介绍
No.1
数据集:开发模型和验证模型
(图1)
(图2)
在分配完训练组,验证组,测试组后,作者对测试组的样本进行了两项测试---将模型与6位放射科医生进行比较,在有无先前CT影像和有先前CT影像两种情况下,比较模型与放射科医生预测的特异性和敏感性。作者先在所有测试组数据中选择阴性/阳性的癌症病例,用作无先前CT的测试,再从中选出含有先前CT影像的病例进行有先前CT影像的测试。No.2
模型的开发和培训
定义术语:体积---完整的CT体积;边界框---包含恶性肿瘤的矩形3D子体积;ROI(感兴趣区域)---一个固定大小的3D子卷,包含恶性肿瘤和一些周围环境(一旦作者从检测模型中获得了边界框,作者就会在每个边界框周围采用固定的90 mm3区域。作者将这个更大的3D子体积称为ROI);
作者的模型包括了四个部分,分别为:肺部分割模型,癌症ROI检测模型,全量模型和癌症风险预测模型。
(图3)
(1)肺部分割。使用TensorFlow对象检测训练肺部分割的方法,从而产生肺分割模型,该掩模用于计算步骤的边界框的中心的定位并确定其与先前体积的对齐。将肺部CT图片分割为两个特定的大小:1.4*0.7*0.7和1.53mm,由于只有边界框中心是感兴趣的关键候选区域,因此精确的分割边界不是作者建模方法的一个因素。
(2)癌症ROI检测模型。作者先在图片中选定一个特定大小的区域,再通过特征提取确定ROI。
(图4)
来自癌症ROI(青色)的区域由癌症ROI检测模型检测到的边界框(红色)确定。最终分类模型使用较大的区域,青色ROI所示的输入。
作者在构建ROI检测模型时,通过采用LIDC39(数据库)初始化检测模型,然后对在NLST数据集上收集的放射科医师注释的病变边界框进行训练。即使没有结节,癌症ROI检测组件也从全输入量输出ROI。在这种情况下,大多数类似结节的区域被建议作为ROI。这里的ROI是一个绝对大小的区域,是固定的。
(3)全量模型。端对端卷积模型,在1.5mm3大小的体积上进行训练,以预测1年内的癌症。这些体积中的每一个都是通过肺部分割确定的围绕边界框中心的大区域。该局部癌症预测模型采用局灶性损失进行训练,以试图减轻阳性实例较少所带来的影响。作者训练模型预测癌症概率,然后在最终概率之前使用最后一层,其中包含1,024个单位。作者将这1,024个数字作为此模型的输出,并在以后将它们用作特征。
(4)癌症风险预测模型。最终的癌症分类模型用于考虑前两个模型的输出。在所有情况下,3D Inception用于提取特征。首先,从检测到的ROI中提取特征;全体积模型的特征被附加到第二阶段模型中每个检测到的ROI的最后层,因此所有预测都依赖于整个CT体积的结节级本地信息和全局背景。将前两个候选ROI传递到第二阶段恶性分类模型之后的统一的端到端方法,被训练为单个卷积神经网络,每个ROI都通过该网络预测其个体恶性程度评分。最终预测是通过组合两个概率分数产生的:1 – (1 – p1)(1 – p2)
No.3
临床验证
基于NLST的测试集包括6,716个病例,其中86个在筛查后1年内具有活检证实的癌症。由于模型的输出是介于0和1之间的概率,因此作者使用三个阈值进行分区。作者首先估计Lung-RADS 3,Lung-RADS 4A和Lung-RADS 4B/X的阳性预测值(PPV)。然后选择了三个与验证组中的这些PPV值相匹配的操作点,以具有与四个与现有Lung-RADS风险值相当的恶性概率。
No.4
操作点的选择
作者将三个(肺恶性肿瘤评分)LUMAS操作点定义为将模型与放射科医生进行比较的方法。使用来自原始NLST读取器的结节注释在作者的验证集上计算Lung-RADS 3+概率,得到0.10的PPV。然后,在验证集上验证模型的阈值以匹配0.10的PPV,并使用得到的模型得分阈值作为作者的LUMAS 3+阈值。作者使用先前的分析估计4A +和4B / X PPV,其给出4A +的PPV为0.15,4B / X的PPV为0.25,作者分别计算了4A和4B / X的LUMAS阈值。简而言之就是作者先得出RADS分级的PPV值,再在模型中寻找有相同PPV值的点,并将这个点作为模型的阈值。
文章结果
本文的结果主要可分为两部分:第一部分作者主要介绍了他们构建模型的方法和过程,以及选择患者的标准(详见方法部分),这一部分在方法中已经介绍过了,就不再详细介绍了;第二部分作者对该模型进行了评估,作者先将模型与放射科医生进行比较,以评估模型的相关性能(包括:特异性,敏感性,定位命中率),除此之外,作者还在CT图像上说明了模型的特异性改变,归因分析和个别误报案例。
(图5)
作者先通过展示模型的整体建模框架来对此模型的工作原理进行简单说明:
输入:对于每位患者,该模型使用LDCT体积,如果可用,则使用先前的和当下的LDCT体积作为输入。
模型(癌症风险预测模型):该模型分析出可疑的(感兴趣区域)ROI及整个LDCT体积,学习该区域的特征。
输出:输出该病例的总体恶性可能性预测,肺恶性肿瘤评分(LUMAS)和预测的癌性结节的定位。---模型的构建过程在方法部分已经介绍,此处不再赘述。
具体筛选患者的流程和患者的分配在方法部分已经介绍过,此处补充一下筛选的第一步,在NCI筛选NLST发布的患者影像时作者具体使用的方法和排除标准:
(图6)
作者将患者分为了5个筛选组:癌症,有结节无肺癌,无结节有异常,无结节无异常和其他肺癌。作者排除掉了没有基线问卷和相关影像图片的患者。需要注意的是:第一,有623个筛查检测到的癌症,但共有638个癌症阳性患者。另外15名患者在筛查窗口期间被诊断出,但不是由于阳性筛查结果。第二,作者对筛选组3(无结节,一些异常)和4(无结节,无异常)进行了下采样。
接下来,作者将模型与6位放射科医生进行比较,以评估模型的性能。
首先作者让模型与患者在单个CT影像中进行肺癌筛查,也就是模型和医生均不能获得患者先前的CT影像。
(图7)
图中蓝线是模型的ROC曲线,曲线下面积为0.959(95%置信区间为92.8-98.1)。
蓝色菱形点表示在选择的操作点上,模型与Lung-RADS3+,4A+和4B/X有相同的预测癌症概率时,模型的敏感性(纵坐标)和特异性(横坐标)。
“十字”的中心点表示6位放射科医生阅片预测的特异性和敏感性的平均值,上下左右的边界表示95%置信区间,绿色代表分组3+,黄色代表4A+,红色代表4B/X。
接下来作者将蓝色突出表示的区域放大,以获得更多细节:在这幅图上,每位放射科医生预测的特异性和敏感性都被单独标示出来,用圆圈表示:绿色表示医生评估3+分期患者的CT;黄色表示医生评估4A+分期患者的CT;红色表示医生评估4B/X患者的CT。
除此之外,作者还对模型进行了回顾性应用的研究,具体指的是在可行的情况下,模型可同时使用当前的和先前的CT影像进行分析预测。在3+的患者分析中,从图中可以看出,当只看绿色圆圈和黄色星星时,模型的回顾性分析与放射医生相比,其特异性高于5位放射科医生,其敏感性低于5位放射科医生,这显示该模型在回顾性应用时,与放射科医生相比它会高估特异性和低估敏感性。
接下来作者直观的比较了模型与放射科医生预测的敏感性和特异性:
(图8)
模型与普通放射科医师之间的敏感性比较。与普通放射科医生相比,模型有更好的预测敏感性,三个阈值的P<0.05。模型与普通放射科医师之间的特异性比较。与普通放射科医生相比,模型有较好的预测特异性性,二个阈值的P<0.05。
综合两幅图分析作者可发现,模型的预测能力比医生有了统计学上显著的提升。例如--LUMAS 3+与LungRADS 3+的工作点比较,特异性提升11.6%(95%可信区间,7.8-15.1)和敏感性提升5.2%的(95%置信区间,0.38- 9.9)。
第二步,作者让模型和放射科医生都能获得当前和上一年患者的CT影像,进行重新预测,并对两者进行比较。
(图9)
当可以获得前一年CT影像后,模型与放射科医生的差距逐渐缩小,但值得注意的是,放射科医生和模型的性能相对于前一部分研究有所下降,可能是因为可获得的CT数量从基线年份下降。
模型的ROC曲线下面积为0.926(95%CI 86.5-97.3)。
作者进行了与之前放射科医生研究相同的比较。
(图10)
在可获得前一年CT时,LUMAS3+和4A+的特异性得到了显著的提高,且具有统计学意义。模型的其余指标均有所下降,与放射科医生的差距也缩小了。
考虑到NLST筛查组中26,722名患者的抽样,作者进行了重新加权分析,将该模型应用于所有6,716例(86例癌症阳性)在所保持的NLST测试组中,加权后,ROC曲线下面积增高,准确性增高。(主要是由于筛选组3 (没有结节,一些异常)和4(没有结节,没有异常)进行了下采样)
然后,作者对模型进行评估。
(图11)
a,在完整的NLST测试集上比较模型性能与NLST放射科医生性能。通过回顾性地将Lung-RADS3标准应用于放射科医生来估计其预测性能。
蓝线:模型预测一年内癌症的ROC曲线,AUC=0.944(95%CI:91.1-97.3)
红线:模型预测两年内癌症的ROC曲线,AUC=0.873(95%CI:83.2-90.9)
星星:放射科医生回顾性预测的敏感性和特异性。蓝色:一年内。红色:两年内癌症。
蓝色菱形点:在选择的操作点上,模型与Lung-RADS3+,4A+和4B/X有相同的预测癌症概率时,模型的敏感性(纵坐标)和特异性(横坐标)。
b,模型与放射科医生之间的敏感性和特异性比较。可以看出,不论是预测一年之内还是两年之内的癌症,模型的敏感性和特异性都比放射科医生要好。
(图12)
接下来,作者用活检和/或手术证实的肺癌的CT影像来对模型性能进行评估,采用的是来自美国学术医疗中心的另一个独立的,完全去识别的筛查数据集,得出的AUC为95.5%(95%置信区间,88.0-98.4)。未使用此数据集对模型进行训练或验证。放射科医师未重新对CT影像进行评估。作者还评估了LUMAS的敏感性和特异性。对于LUMAS 3+,作者发现灵敏度为81.5%(95%置信区间,66.7-95.0),特异性为89.3%(95%置信区间,87.5-91.2)。
作者还对模型的定位准确性进行了分析,以测量正确的癌症诊断与正确定位相关联的频率。该模型通过恶性风险产生了前两个候选病变的边界框。放射科医师从病理报告中获得位置和分期信息,以及患者数据中的所有CT体积。然后指示他们用边界框标记所有恶性肿瘤。(左:为提供先前CT;右:提供先前CT)除了一种情况外,排名最高的边界框与作者的放射科医师标记的扫描中的恶性肿瘤重叠,Hit @ 1命中率为98%。Hit @ 2率为100%。
Hit@N被定义为检测模型得到的前N个候选病变区域与恶性肿瘤区域重叠的真阳性百分比。
(图13)
(图14)
这幅图讲的是模型与放射科医生标记的肿瘤候选区域的重叠度。
横坐标IOU(重叠度):IoU分数是对象类别分割问题的标准性能度量。给定一组图像,IoU给出了在该组图像中存在的对象的预测区域和实际区域之间的相似性。
纵坐标:该IOU数下的样本数量。
作者还对模型的特异性改变进行了分析:
(图15)
具有瘢痕形成的示例性癌症阴性病例,其通过模型正确地从共有等级的Lung-RADS 4B降级至LUMAS 1/2。---放射科医师在22%的模型放射科医生分歧中观察到瘢痕形成,并且在57%的这些病例中,LUMAS适当地分配了比放射科医生更低的风险桶。这种瘢痕形成的降级解释了该模型中的一些特异性改进。具有结节(尺寸分级为7-12mm,取决于放射科医师)的癌症阳性病例,从LungRADS 3和4A等级(取决于放射科医师)通过模型正确升级至LUMAS 4B / X.
归因分析:
(图16)
a,癌症阳性病例的模型归因的例子。第一行分别显示了全容量和癌症风险预测模型的输入量。下一行显示属性覆盖,其中对分类的有利贡献区域(洋红色)和不利贡献(蓝色)区域贡献。在归因研究的所有癌症病例中,放射科医生强烈认同该模型侧重于结节。
b,癌症阴性病例的模型归因的例子。左侧图像显示来自输入子集体积的切片。右侧图像图像显示叠加的正(洋红色)和负(蓝色)属性。作者发现,在40%的阴性病例中,该模型主要关注实质中的血管区域。
---对模型结果的进一步分析包括使用平均23年临床经验(范围10-38岁)的三位放射科医师检查用积分梯度计算的归因区域35。三位放射科医师对来自测试集的一组实例检查了阳性和阴性分类区域。归因区域表明该模型主要集中在结节的内部和边缘,尽管在某些情况下也在实质的脉管系统上。
(图17)
最后,作者还展示了LuMAS误报案例。a,4B / X误报。b,4A +误报。
全文论证思路图
全文总结
总而言之,作者团队使用先进的深度学习技术,通过利用完整的3D LDCT体积,病理学确认的病例结果和先前的体积来训练具有最先进性能的模型。其端到端的方法可生成病例的恶性肿瘤风险预测值以及LDCT肺筛查量的定位信息。在没有先前CT图像的情况下,增加的敏感性可以转化为临床实践中对癌症的更少遗漏,特别是当更多的患者开始筛查时。对于先前成像检查的患者,深度学习模型的性能可以提高工作流效率和一致性。该模型的定位准确性可以指导最受关注的特定病变的随访。这些预测对于进行进一步检查和治疗的患者至关重要;文章中的癌症风险预测模型的更大范围的背景(候选区域周围的更大的ROI,整个3D体积评估和先验)以及对更大范围的NLST的训练产使其拥有了卓越的性能。但是这个模型也存在着一些问题,例如在分析的过程中,不知道该模型是否在其预测中纳入了其他肺部异常病变;使用的数据仅限于来自NLST数据集的回顾性数据;在测试期间仅使用了两个数据集,因此可以得出关于普遍性的结论的限制等。对于此项研究,也存在可以改进的地方,例如随着筛查计划的不断扩大,将需要更加强大的回顾性和前瞻性研究以确保临床适用性;该模型还可以为放射科医师提供模型输出的评估,包括恶性风险计算和定位。参考文献:
Ardila Diego,Kiraly Atilla P,Bharadwaj Sujeeth et al. End-to-end lung cancer screening with three-dimensional deep learning on low-dose chest computed tomography.[J] .Nat. Med., 2019, 25: 954-961.
编辑:斯伃恬 游丹铭
审核:张健